2024-onlyarxiv-The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

機械学習モデルの量子化とは、パラメタを連続の値ではなく、指定の離散の値しかとらないようにする。その結果、モデルを保持するためのデータをかなり削れる。もし精度の低下がそこまででなければね！

このように、-1, 0, +1だけで量子化できたら、加減算だけで計算でき、乗算ユニットが不要になる。それによって、

16bitのfloatを、8, 4bitにどんどん縮めていく先行研究は結構ある。最終的に、1bitのみ取る=パラメタが0, 1だけのBitNetという言語モデルも開発されている。

この研究では、 $-1, 0, +1$ の3つの状態を持つ言語モデルを作り、性能がそこまで低下しないことを示した。

\log_2 3 \approx 1.58

なので、1.58bitという。

-1, 0, +1の3つの状態を持たせることで、0という特徴フィルタリングを明示的にサポートすることで、1bitのLLMの性能を大幅に向上できる。

BitNetのアーキテクチャをそのまま使っている。ただし、線形層 nn.Linear() の代わりに、 BitLinear() へ置き換えただけ。

BitNetのアーキテクチャは、以下のようなもの。

重み行列を平均絶対値でプーリングして、各値を $-1, 0, +1$ に近い値に丸める事だけ違う。